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关于 新 华 社 数据 交换 平台 发 展 的 思 


摘 要 : 新 华 社 数据 交换 平台 作为 新 华 社 的 一 个 重要 技术 系统 ， 已 经 平稳 运行 超过 20 年 。 近 年 来 ， 随 着 新 媒体 技术 及 移动 
互联 网 的 发 展 ， 新 闻 信 息 的 生产 及 传播 方式 都 发 生 了 较 大 变革 ， 既 有 的 系统 架构 及 业务 模式 越发 难以 满足 新 增 的 业务 需求 。 
现 通过 对 数据 交换 平台 现状 的 梳理 分 析 ， 找 到 痛 点 ， 提 出 日 后 发 展 改进 的 方向 和 策略 ， 顺 应 技术 潮流 ， 更 好 地 为 新 闻 信息 传 


播 事业 提供 服务 。 
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背景 

目前 ， 新 华 社 总 社 范围 内 的 技术 系统 多 达 数 十 个 ， 

主要 包括 采编 系统 、 发 布 系统 、0A、 数 据 库 及 新 华 网 等 ， 
此 外 还 有 31 家 国内 分 社 、11 家 海外 总 (大 ) 分社。 上述 
系统 组 成 了 一 个 以 新 华 社 总 社 为 核心 ， 规模 庞 大 的 分 级 
式 业务 网 络 。 随 着 新 华 社 全 媒体 新 闻 事 业 的 莲 勃 发 展 ， 
相关 技术 系统 的 数量 在 增加 ， 随 之 而 来 的 各 技术 系统 内 
部 、 社 内 各 技术 系统 间 、 新 华 社 技 术 系统 与 外 部 技术 系 
统 间 的 信息 流转 越发 频繁 ， 不同 网 域 、 不 同系 统 、 不 同 
格式 的 信息 共享 、 交 换 需求 日 益 增多 。 
新 华 社 通 信 系 统 始 建 于 20 世纪 90 年 代 ，20 多 年 来 
一 直 作 为 新 华 社 的 核心 技术 系统 之 一 ， 主 要 承载 着 总 社 
各 系统 、 总 社内 外 网 之 间 、 总 社 与 国内 外 分 社 之 间 、 与 
社 外 系统 之 间 的 数据 交换 工作 。 系 统 内 部 处 理 的 业务 包 
括 新 华 社 文字 、 图 片 、 音 频 、 视 频 、 多 媒体 等 成 品 数据 ， 
以 及 外 媒 新 闻 、 外 部 接 入 的 异 构 数据 等 。 多 年 来 ， 随 着 
业务 发 展 ， 通 信和 系统 也 在 持续 进行 不 同 程 度 的 业务 扩展 
及 和 迭代， 逐渐 演变 为 一 个 覆盖 面 广 、 实 用 性 强 的 数据 交 
换 平台 , 为 全 社 乃 至 相关 社 外 机 提供 基础 数据 传输 服务 。 
1. 现状 及 痛 点 

2010 年 前 后 ， 世 界 大 步 迈 入 移动 互联 网 时 代 。 新 闻 
生产 及 传播 的 业态 也 发 生 了 巨大 变革 ， 与 之 相关 的 技术 
系统 必须 快速 响应 ， 顺 应 潮流 。 

对 此 , 数据 交换 平台 作为 新 华 社 的 基础 服务 提供 者 ， 
势必 需要 做 出 调整 ， 找 到 制约 自身 发 展 转型 的 短 板 ， 对 
症 下 药 。 

1.1 系统 架构 繁 元 

近 十 数 年 来 ， 随 着 新 华 社 新 闻 事业 的 快速 发 展 ， 为 
了 对 接 采 编 部 门 及 终端 用 户 需 求 ， 先 后 涌现 出 不 少 技术 
系统 。 这 些 系统 的 网 络 架 构 各 不 相同 ， 同 时 ， 各 系统 间 
均 存 在 个 性 化 的 数据 交互 需求 。 基 于 此 ， 数 据 交换 平台 
通过 部 署 在 新 华 社内 网 、DMZ 区 、 外 网 、 绿 区 交互 区 、 
绿 区 应 用 区 及 私 网 等 六 个 网 络 区 域 的 节点 机 ( 每 个 网 域 
均 部 署 有 一 到 多 台 节 点 服务 器 ) 完成 本 网 域内 、 跨 网 域 
间 的 数据 汇聚 、 格 式 转换 、 数 据 分 发 等 数据 交换 工作 。 
目前 ， 数 据 交换 平台 中 担负 数据 交换 业务 的 节点 服务 器 
多 达 20 余 人 台 , 各 网 域 的 接 入 交换 机 10 余 人 台 。 硬件 数量 多 ， 
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服务 器 主 备 机 之 间 采 用 一 对 一 冷 备 方式 , 业务 布局 分 散 ， 
给 系统 管理 员 日 常 运 维 造 成 了 不 小 的 压力 。 
1.2 业务 模式 相对 单一 

多 年 来 ， 数 据 交换 平台 所 提供 的 数据 传输 及 数据 处 
理 等 服务 ， 无 论 是 在 内 部 技术 系统 之 间 还 是 与 外 部 用 户 
之 间 ， 基 本 均 于 绕 “ 文 件 ” 这 一 种 数据 形式 展开 。 但 随 
着 移动 互联 网 技术 的 鞍 勃 发 展 ， 新 闻 信息 的 传播 方式 也 
相应 发 生 了 巨大 改变 。 比 如 我 们 看 到 通过 消息 驱动 、 借 
由 API 接口 进行 数据 交互 的 技术 路 线 越 来 越 多 的 出 现在 
各 类 应 用 场景 中 ; RSS， 数 据 订 阅 等 数据 获取 及 发 布 模式 
也 被 广泛 采用 。 相 较 之 下 ， 数 据 交换 平台 沿用 多 年 的 仅 
基于 文件 及 目录 的 数据 传输 模式 已 无 法 很 好 地 满足 业务 
需求 ， 制 约 了 自身 的 发 展 。 
1. 3 应 用 程序 功能 的 健全 性 及 规范 化 

数据 交换 平台 作为 传输 中 枢 ， 上 下 游 间 交互 的 技术 
系统 数量 繁多 ， 各 系统 在 数据 传输 的 过 程 中 或 多 或 少 都 
存在 一 些 个 性 化 的 需求 , 如 所 采用 的 传输 方式 不 同 ( socket 
或 FTP) ， 所 采用 的 操作 系统 类 型 不 统一 ( windows， 
linux，solaris ) ， 文 件 落 盘 的 方式 要 求 不 尽 相 同 ( 是 否 按 
日 期 结构 落 盘 , 是 否 按照 语种 落 盘 , 是 否 落 多 个 实体 等 ) ， 
甚至 当 涉 及 国际 网 域 间 传输 时 的 网 络 条 件 是 否 要 考虑 数 
据 校 验 及 断 点 续 传 等 。 为 了 满足 不 同 的 技术 需求 ， 提 供 
个 性 化 的 服务 ， 数 据 交 换 平 台 内 的 数据 传输 处 理 程序 先 
后 衍生 出 不 同 的 版 本 ， 各 版 本 在 主要 功能 上 类 似 ,但 细 
节 上 均 有 差异 ,不 易于 维护 ， 在 后 续 业 务 部 署 时 容易 造 
成 混乱 。 
1.4 缺乏 统一 高 效 的 业务 监控 及 管理 手段 

如 前 文 所 述 ， 数 据 交 换 平 台 目 前 所 辖 主 要 传输 节点 
服务 器 逾 20 台 ; 平台 内 大 部 分 应 用 程序 均 基 于 C 语言 编 
写 ， 同 时 搭配 一 些 shell 脚本 。 基 于 这 些 原因 ， 当 遇 到 日 
常 系统 故障 排查 及 业务 调整 ， 需 要 系统 管理 员 根 据 业 务 
资料 在 数据 链条 中 涉及 的 每 台 服 务 器 上 通过 命令 性 的 方 
式 进行 操作 ， 效 率 较 低 且 容 易 出 错 。 
2. 未 来 调整 的 方向 

以 面向 服务 体系 结构 (SOA) 为 框架 ， 采 取 松 散 藉 合 
方式 构建 ， 提 供 数 据 接 入 、 格 式 转换 、 传 输 、 回 传 、 查 
询 、 检 索 等 不 同 的 服务 ; 能 够 提供 跨 平台 数据 交换 服务 ， 
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能 够 对 数据 接 和 人 人、 转换 和 传输 过 程 实现 集中 统一 控制 和 
规范 管理 ; 针对 每 一 条 数据 从 接 和 人 系统 开始 ， 进 行 全 流 
程 的 管理 和 配置 。 
2. 1 系统 架构 设计 

数据 层面 引入 统一 存储 。 当 前 ， 数 据 交换 平台 系统 
架构 庞杂 的 一 个 重要 原因 在 于 被 传输 的 数据 均 存放 于 各 
系统 的 本 地 文件 系统 中 ， 因 此 需要 在 各 网 域 部 署 传输 节 
点 , 将 同一 份 数据 在 不 同 网 域 间 往复 传输 。 统 一 存储 ( 如 
NAS ) 的 引入 ， 可 以 为 此 类 问题 提供 一 个 解决 方案 。 存 
储 网 络 作 为 区 别 于 服务 器 业务 网 络 独 立 存在 的 一 张 网 ， 
可 以 满足 位 于 不 同 网 域 的 服务 器 同时 接 入 同一 个 存储 网 
络 ， 实 现 数据 共享 ， 在 提高 数据 访问 时 效 性 的 同时 大 幅 
减少 数据 在 服务 器 业务 网 间 传 输 的 需求 , 节省 网 络 资源 。 
此 外 ，NAS 本 身 自 带 访 问 权 限 控制 功能 ， 通 过 对 不 同 的 
接 入 用 户 的 读 、 写 、 执 行 权限 进行 细 粒 度 的 配置 ， 可 以 
上 保 基 于 统一 存储 上 的 数据 安全 性 。 因 此 ， 仅 需要 为 暂 
时 无 法 接 入 统一 存储 的 网 域 部 署 节点 机 即 可 ， 服 务 器 的 
部 署 数量 上 与 之 前 相 比 可 大 为 减少 。 

计算 资源 、 服 务 层面 采用 分 布 式 部 署 ， 集 群 模式 。 
依托 统一 存储 ， 无 论 稿件 数据 还 是 系统 应 用 数据 均 可 以 
方便 地 在 服务 器 之 间 实 现 共享 。 因此， 数据 交换 平台 的 
计算 资源 完全 可 以 按照 服务 功能 进行 分 布 式 部 署 ， 以 集 
群 的 方式 实现 。 这 样 做 的 好 处 在 于 : 首先 ， 按 照 不 同 的 
服务 功能 进行 分 布 式 部 署 ， 可 以 使 不 同 的 应 用 模块 间 的 
耦合 度 相 对 松散 ， 在 对 业务 进行 管理 时 逻辑 更 加 清晰 ， 
快速 定位 问题 所 在 ; 其 次 ， 由 于 实现 了 数据 库 共 享 、 配 
置 文件 共享 , 服务 器 层面 可 以 很 容易 做 到 “ 双 活 ”乃至 “多 
活 ”， 相 比 于 之 前 传统 的 服务 器 一 对 一 冷 备 ， 这 种 集群 
工作 模式 使 业务 运行 的 稳定 性 显著 提升 ,一 旦 一 台 服 务 
器 出 现 应 用 故障 其 至 宕 机 ， 集 群 中 的 其 他 服务 器 可 以 立 
即 完成 接管 ， 业 务 完全 不 受 影响 ,保证 延续 性 。 此 外 ， 
集群 模式 为 实现 业务 负载 均衡 提供 了 基础 ， 这 对 于 一 些 
流量 集中 的 核心 业务 节点 来 说 是 十 分 重要 的 。 
2. 2 服务 模式 的 升级 

在 过 去 以 “文件 ”为 中 心 的 业务 模式 基础 上 ， 增 加 
并 重点 发 展 以 “消息 ”为 核心 的 业务 模式 。 依 托 成 熟 的 
消息 中 间 件 ， 数 据 交换 平台 内 部 各 应 用 之 间 、 数 据 交换 
平台 与 外 部 系统 之 间 的 数据 交互 和 服务 调度 都 可 以 通过 
消息 来 实现 。 前 文 提 到 的 “分 布 式 部 署 ”“ 服 务 器 集群 ” 
就 是 通过 消息 驱动 业务 最 直观 的 实例 。 
将 数据 交换 平台 常用 的 功能 模块 ， 如 格式 转换 、 数 
据 分 发 甚至 数据 传输 等 ， 封 装 成 服务 ， 通 过 发 布 的 API 
接口 供 各 相关 系统 调用 。 从 关联 系统 的 角度 看 ， 通 过 调 
用 数据 交换 平台 的 服务 接口 拿 数据 ， 在 拿 到 数据 的 同时 
也 可 以 根据 自身 需求 开发 或 部 署 相 关 的 应 用 对 数据 进行 
灵活 处 理 ; 对 数据 交换 平台 来 说 ， 仅 需要 维护 平台 内 的 
基础 功能 模块 并 确保 接口 的 稳定 即 可 ， 不 需 过 多 考虑 关 
联系 统 的 个 性 化 需求 。 这 样 使 得 系统 间 的 边界 更 加 清晰 
明确 。 
2. 3 系统 应 用 的 健壮 性 和 稳定 性 

将 程序 进行 重 构 , 基于 java 和 标准 的 J2EE 规范 实现 ， 
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能 够 保证 应 用 跨 平台 平滑 部 署 和 实施 ， 不 再 受 操 作 系 统 
平台 的 局 限 ， 同时， 在 对 有 关 数 据 传输 程序 的 重 构 过 程 
中 , 将 个 性 化 的 功能 通过 丰富 配置 文件 内 容 项 进行 设置 ， 
主 程序 中 对 应 预 留 好 相关 功能 和 人 口 即 可 。 这 样 可 以 基本 
确保 系统 管理 员 在 对 业务 调整 时 不 需要 对 主 程序 进行 大 
多 修改 ， 只 需要 重点 对 配置 文件 进行 操作 即 可 。 这 样 可 
以 保证 应 用 程序 功能 及 版 本 的 相对 稳定 统一 ， 同 时 也 易 
于 将 应 用 模块 打包 ， 或 以 agent 的 方式 部 署 在 相关 系统 的 
接口 机 上 。 

2. 4 管理 监控 功能 的 升级 

接 入 ELK 实时 日 志 分 析 查 询 平 台 ， 可 以 使 日 常 业务 
监控 更 便捷 高 效 。 

ELK 是 三 个 开源 软件 的 缩写 ， 分 别 表 示 Elasticsearch、 
Logstash、Kibana， 它 们 都 是 开源 软件 。 新 增 了 一 个 
FileBeat， 它 是 一 个 轻 量 级 的 日 志 收 集 处 理工 具 ， 以 Agent 
的 方式 装 在 需要 收集 日 志 信 息 的 服务 器 上 ， 在 各 个 服务 器 
上 搜集 日 志 后 传输 给 Logstash。 

所 有 的 日 志 数 据 采 集 并 存储 后 ，Kibana 可 以 为 
Logstash 和 ElasticSearch 提供 日 志 分 析 友 好 的 Web 界 矣 
可 以 帮助 汇总 、 分 析 和 搜索 重要 数据 日 志 。 

为 了 让 接 入 ELK 日 志平 台 的 数据 使 用 起 来 更 加 高 效 ， 
查询 及 定位 问题 更 加 准确 ， 系 统 内 各 应 用 的 日 志 输 出 均 
必须 遵循 统一 的 标准 。 

系统 硬件 监控 : 对 系统 内 所 辖 服务 融 的 硬件 情况 进 
行 监控 , 主要 包括 但 不 限于 硬盘 使 用 空间 、 内 存 使 用 率 等 。 
这 部 分 信息 都 可 以 通过 提取 操作 系统 的 message 信息 及 执 
行 简单 的 shell 命令 获得 ， 并 生成 日 志文 件 。 

业务 监控 : 在 重 构 系统 内 部 各 模块 的 程序 时 ， 要 按 
照 统 一 的 格式 标准 输出 日 志 。 通 过 对 日 志 内 与 业务 故障 
相关 的 字段 进行 直 、 简 洁 的 设 定 , 以 求 在 接 入 ELK 平 台 后 ， 
能 够 精确 快速 地 检索 出 故障 信息 。 由 于 每 台 服 务 器 的 日 
志 信 息 都 汇集 到 一 起 ， 因 此 ， 在 日 志平 台 查 询 时 能 够 做 
到 集中 展示 ， 甚 至 通过 一 条 数据 在 不 同 服务 咒 上 的 日 志 
留 痕 ， 将 业务 链条 串 起 来 ， 帮 助 系统 管理 员 快 速 定位 问 
题 所 在 ， 并 及 时 进行 处 理 。 癌 
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